紅茶是世界上最受歡迎的無酒精飲料之一,由茶樹的幼嫩枝葉加工而成。近年來,隨著紅茶的藥用價值和保健作用得到實驗的進一步證實,全球紅茶消費量持續(xù)增長。工夫紅茶作為紅茶的主要品類之一,是中國特有的一種茶品。其緊細的外形和醇厚的口感深受消費者的喜愛。一般來說,茶葉的品質(zhì)與特定的感官特征如顏色、香氣、滋味、紋理和形態(tài)特征高度相關。茶葉按品質(zhì)的差異可以劃分為不同等級,這取決于其生長條件、收獲季節(jié)和加工工藝。在茶產(chǎn)品的實際流通銷售中,大多數(shù)消費者無法準確評估茶葉的質(zhì)量,這為不法商家提供了銷售假貨或以次充好的可能,給消費者帶來了經(jīng)濟損失,也造成了消費者與商家之間的不信任。因此,茶葉質(zhì)量的穩(wěn)定性和規(guī)范化一直受到消費者的關注。
幾十年來,茶葉質(zhì)量評價主要采用兩種傳統(tǒng)方法,即感官品質(zhì)分析法和濕化學法。感官質(zhì)量分析是依靠訓練有素的評茶員的經(jīng)驗來實現(xiàn)的,缺乏客觀的量化。濕化學分析通過使用精密的儀器,準確測定茶葉中各種化學成分的含量。然而,化學分析具有設備昂貴、樣品制備復雜、使用大量化學試劑、成本較高、耗時較長的局限性,開發(fā)快速、穩(wěn)定、準確的茶葉品質(zhì)評價技術勢在必行。
目前,基于單一外形色澤、紋理等特征無創(chuàng)判別茶葉質(zhì)量的評價方法被大量報道。將茶葉色澤和紋理特征進行特征數(shù)據(jù)融合,全面衡量祁門工夫紅茶品質(zhì)的方法至今少有文獻報道。因此,有必要建立一套基于紋理和色澤等融合特征的茶葉品質(zhì)快速評價體系與智能感知的新方法。
綜上,探索一種流通過程中工夫紅茶外觀品質(zhì)的快速判別方法,對實現(xiàn)品質(zhì)等級與外觀質(zhì)量的實時控制至關重要。祁門紅茶的紋理與色澤特征是形成其外在品質(zhì)的主要指標,也是重要的感官品質(zhì)描述語,直接影響其在貿(mào)易中的銷售價值。而高光譜成像(Hyperspectral imaging, HSI)技術正適用于不同等級祁門工夫紅茶外觀品質(zhì)指標與融合數(shù)據(jù)特征的快速無創(chuàng)檢測。
01
材料與方法
1、實驗材料
研究以祥源茶業(yè)股份有限公司提供的祁門櫧葉種祁門工夫紅茶的七個等級茶產(chǎn)品標準樣(特級、一級、二級、三級、四級、五級和六級)為研究對象,七個等級工夫型紅茶樣品的主要品質(zhì)成分含量和感官審評結果分別通過標準方法化驗和專業(yè)評茶員把關。紅茶樣品數(shù)共計700份,每個等級茶樣數(shù)分別為100份。樣品的七個不同等級(特級、一級、二級、三級、四級、五級和六級)分別以T、C1、C2、C3、C4、C5和C6表示。樣品的水分含量控制在7%左右。分析前,將樣品存放在真空壓縮的鋁箔袋中,并在恒溫干燥器中保存待用。
2、高光譜成像信息采集與處理
采集HSI數(shù)據(jù)時,每個樣品稱取15±0.5 g均勻鋪于培養(yǎng)皿(φ×h:9 cm×1 cm)中。為了獲得清晰的圖像,分別設置輸送帶速度、CCD相機曝光時間和鏡頭與樣品垂直距離三個調(diào)試參數(shù)為0.98 mm/s、30.01 ms和23.5 cm。將茶葉樣品放置在移動平臺上,通過行掃描的方式進行圖像采集。為了去除相機內(nèi)的噪聲和暗電流等因素的干擾,在進行HSI數(shù)據(jù)分析前,需對原始圖像進行黑白校正,校正公式如下:
其中Ic是校正后的圖像,Iraw是原始圖像,Idark是通過完全覆蓋攝像頭鏡頭獲得的暗參考圖像(幾乎為0%的反射率),Iwhite是通過反射一個標準的特氟龍白瓷磚獲得的白色參考圖像(>99.9%的反射率)。
為降低HSI數(shù)據(jù)的空間維度,優(yōu)化茶樣原始圖像,實現(xiàn)冗余數(shù)據(jù)的消除和數(shù)據(jù)運行速度的提升,主成分分析(Principal component analysis, PCA)被引入,用于數(shù)據(jù)降維和特征信息提取。該法將數(shù)據(jù)以線性變化的方式通過求解最大協(xié)方差,由高維度向低維度投影,獲得與原始變量線性組合的新變量。由于新變量間相互獨立,可消除相鄰波長間存在的數(shù)據(jù)冗余。高光譜特征波長圖像的確定是由前二至三個主成分(Principal component, PC)圖像的方差貢獻率決定,通過選取PCA變量線性組合的最大權重系數(shù),進而在PC圖像中優(yōu)選出相應波長對應的圖像。HSI數(shù)據(jù)的校正和PCA均由ENVI 4.7軟件實現(xiàn)。
3、紋理和色澤特征提取
茶葉的紋理特征和色澤特征能夠直接反映其外觀品質(zhì)。研究采用ENVI 4.7軟件的PCA模塊提取圖像紋理信息??偟膩碚f,PCA的前幾個PCs對圖像總體信息做出了主要貢獻。首先,計算出前兩、三個PC的累積方差貢獻率,得到總變量貢獻率大于95%的PC對應的載荷曲線。然后,將相應PC載荷曲線的拐點(即波峰和波谷)作為特征波長,保存特征波長處的灰度圖像。最后,采用灰度統(tǒng)計矩陣(Grey-level gradient co-occurrence matrix, GLGCM)和灰度共生矩陣(Gray-level co-occurrence matrix, GLCM)兩種矩陣統(tǒng)計方法對茶葉圖像的紋理特征進行提取和計算。GLCM法提取了指定圖像在特征波長下的六個不同的統(tǒng)計參數(shù)(即平均值、標準差、相關性、對比度、同質(zhì)性和能量)。GLGCM法基于灰度梯度的二階統(tǒng)計量,計算得到圖像的四個紋理統(tǒng)計值(熵、三階矩、一致性和平滑度)。將獲得的上述八個紋理參數(shù)和兩個統(tǒng)計參數(shù)(平均值和標準差)作為茶葉紋理特征變量,用于建立后續(xù)的紋理數(shù)據(jù)鑒別模型。上述紋理參數(shù)提取均通過MATLAB R2019b軟件實現(xiàn)。
采用MATLAB R2019b軟件選取樣品高光譜RGB圖像中200×200的像素區(qū)間為該圖像的感興趣區(qū)域(Region of interest, ROI),通過RGB、CIE Lab和HSV間的顏色模型變換,分別提取該區(qū)域內(nèi)的紅色(R)、綠色(G)和藍色(B)通道均值,明度(L*)、紅綠度(a*)和黃藍度(b*)分量均值以及色調(diào)(H)、飽和度(S)和亮度(V)均值九個色澤評價參數(shù)作為樣品的外觀顏色特征值,用于后續(xù)的樣品質(zhì)量評價模型的構建。利用HSI系統(tǒng)提取色澤特征示意圖如圖1所示。
2、多元分析方法
為使模型具備良好的泛化性能,采用Kennard-Stone(K-S)方法對樣本集特征進行劃分。該算法將所有的樣本作為校正集的候選樣本,計算所有樣本的歐氏距離,選取距離最近和最遠的兩個樣本劃入校正集。重復上述步驟,直到獲得滿足要求的樣品數(shù)量。利用該法可優(yōu)選出具有代表性的樣本劃入校正集,余下的樣品劃入預測集。
在模型構建中,研究選用非線性的支持向量機(Support vector machine, SVM)、兼具線性功能的最小二乘支持向量機(Least squares support vector machine, LSSVM)和隨機森林(Random forest, RF)算法進行建模,并對判別模型效果進行比較,探索出評價茶葉品質(zhì)的最優(yōu)模型。
SVM法是數(shù)據(jù)分析中常用的多分類器。該算法基于結構風險最小化原則,試圖提高泛化能力,降低預期風險。SVM鑒別器以徑向基函數(shù)(Radial basis function, RBF)為核函數(shù),通過優(yōu)化兩個參數(shù)(即懲罰參數(shù)c和核參數(shù)g)獲得良好的預測。參數(shù)c用于獲得最小訓練誤差和簡化模型;核函數(shù)g描述了輸入空間到隨機高維特征空間的非線性映射。
該方法的具體步驟概述如下:
(1)采用留一法交叉驗證來優(yōu)化核心參數(shù)(c和g);
(2)采用網(wǎng)格搜索法確定最佳參數(shù)對(c和g);
(3)根據(jù)預測集中正確判別率(Correct discriminant rate, CDR)的最高輸出,建立最佳的SVM分類模型。
LSSVM是一種有效的非線性智能學習算法,能夠快速解決線性和非線性模式識別問題。該法重點研究了機器學習損失函數(shù),并將第二范數(shù)應用于目標函數(shù)的優(yōu)化問題。算法使用等式約束代替不等式約束,將優(yōu)化問題轉化為對一組線性方程組的求解。對于任意已知輸入輸出的非線性樣本集,可以通過探索合適的非線性變換來建立LSSVM模型,其表達式如下:
在LSSVM模型中,核函數(shù)的選擇起著重要的作用。其核心思想是利用核函數(shù)將線性不可分的樣本映射到高維空間,解決維數(shù)的困擾。考慮特征空間的結構完全由核函數(shù)決定,核函數(shù)選擇對分類器的開發(fā)具有重要意義。在本研究中,RBF是由專家根據(jù)最小誤差和先驗知識來選擇的。內(nèi)核函數(shù)的描述公式如下:
其中x為m維輸入向量,xi為第i個徑向基函數(shù)的中心,與x具有相同的維數(shù)。γ為徑向基函數(shù)核函數(shù)的參數(shù)。利用網(wǎng)格搜索法優(yōu)化了RBF的正則化參數(shù)gam(γ)和sig2(σ2)。該方法簡化了SVM優(yōu)化問題的求解,提高了計算效率,促進了SVM的應用和發(fā)展。
RF算法是基于回歸樹和分類樹的多個決策組合而構建的模型集成方法。當算法的運行,每棵決策樹均進行分類。以所有決策樹中分類結果最多的類別作為最終結果。算法提出了兩個關鍵參數(shù):一是決策樹的數(shù)量(Number of decision trees, nDT);二是用于構建決策樹的采樣特征的數(shù)量。RF具有不要求變量服從特定統(tǒng)計分布、訓練樣本少、對過擬合靈敏度低、能夠對特征的重要性進行排序等優(yōu)點。
該方法可以簡單概括為如下三個步驟:
(1)使用Bagging方法隨機生成T個訓練數(shù)據(jù)子集;
(2)每個訓練樣本被用來生成相應的決策樹。在每個子節(jié)點選擇屬性之前,從M個屬性中隨機選擇m個屬性作為當前節(jié)點的拆分屬性集,在M個屬性中以最佳拆分方式拆分節(jié)點;
(3)每一棵樹在不修剪的情況下充分生長,用來測試預測集X中的相應類別,利用T決策樹的多數(shù)票,對X進行集合分類決策。
為評價判別模型的性能,用校正集和預測集的CDR來評估模型的預測能力。一般來說,一個優(yōu)秀的判別模型應有較高的CDR值,其計算方法如下:
其中,NCDR為校正/預測樣本的正確估計數(shù),Nt為校正/預測樣本的總數(shù)。上述建模算法均由MATLAB 2019b軟件在Windows 8平臺下自主開發(fā)。
02
結果與分析
1、樣品外觀品質(zhì)特征
七個不同等級(即T、C1、C2、C3、C4、C5和C6)的700份祁門工夫紅茶的九個顏色參數(shù)(R、G、B、L*、a*、b*、H、S和V)的變化情況如圖2所示。結果顯示,隨著樣本等級的降低,其外觀色調(diào)(H)和飽和度(S)值降低,其它七個指標值則呈增長的趨勢。結果表明,茶樣的等級品質(zhì)越低,其色澤越暗,純度越低。
祁門紅茶樣本的紋理特征值的提取過程是利用ENVI軟件中PCA方法提取前兩個PC圖像的累計方差貢獻率達95.85%(PC1=92.19%,PC2=3.66%)(見圖3),前兩個PCA載荷曲線的波峰與波谷處的波段被篩選為圖像特征波長。從PC1和PC2中獲得了三個最佳波長(696.74 nm、752.86 nm和975.91 nm)。
因此,基于GLCM和GLGCM法從上述三個最佳波長的圖像ROI中提取圖像紋理特征。GLCM法獲得的紋理參數(shù)包括兩個統(tǒng)計值(均值和標準差)×三個波段+四個紋理指標×三個波段×四個方向(0°、45°、90°和135°),即54個紋理特征。GLGCM方法可得到12個紋理數(shù)據(jù)(四個紋理特征×三個波段),總計66個紋理值,用于后續(xù)模型構建。
2、樣品集劃分與主成分分析
利用K-S方法將校正集和預測集樣本以2∶1的比例進行劃分,得到校正集樣品數(shù)為467,預測集樣品數(shù)為233。樣品集的二維PC空間分布情況見圖4。結果顯示,祁紅樣品的單一特征(色澤或紋理)與融合特征的校正集和預測集樣品的空間分布相對分散,且校正集樣品分布包含了預測集樣品的分布范圍。表明樣品集的劃分是合理的。
不同等級祁紅樣品的二維PC空間分布情況如圖5所示。不同等級樣本的單一特征(色澤或紋理)與融合特征PC得分分布顯示,不同等級的樣本間重疊性較強,無論是單一特征還是融合特征均無法將不同等級的樣本區(qū)分開,有必要引入線性或非線性的分類算法,以實現(xiàn)對樣本品質(zhì)等級的準確判別。
3、外觀品質(zhì)評價模型建立
基于SVM、LSSVM和RF智能算法的祁門紅茶外觀色澤、紋理及特征融合數(shù)據(jù)的等級評判模型結果見表1。
模型結果顯示,基于色澤、紋理與特征數(shù)據(jù)融合的祁門紅茶等級最優(yōu)LSSVM分類模型在校正集和預測集中的CDR分別為70.88%、72.96%、83.51%、86.27%和93.15%、94.85%。使用融合特征建立的最佳判別模型性能優(yōu)于單一紋理與色澤特征所建的模型,且紋理數(shù)據(jù)的建模效果高于色澤數(shù)據(jù)構建的模型識別精度。此外,融合數(shù)據(jù)建立的所有模型的CDR均高于使用相同分類算法的紋理或色澤模型。實驗結果表明,特征融合能夠更為有效地反映祁紅樣本的外觀品質(zhì)屬性,建模精度較基于單一特征(紋理或色澤)的模型更高,對樣本的解析更加有優(yōu)勢。
03
總結與討論
研究基于HSI技術和化學計量學算法,開發(fā)出一套快速、無損的工夫紅茶外觀品質(zhì)(色澤、紋理和融合數(shù)據(jù))的評判方法。探討了不同機器學習算法對七個等級的祁門工夫紅茶標準樣單一外觀特征和多信息特征融合的預測能力,以探求評價模型的最優(yōu)化。
利用HSI技術獲得祁門紅茶樣品的色澤和紋理特征數(shù)據(jù),比較了基于SVM、RF和LSSVM算法對上述茶產(chǎn)品標準樣的單一外觀特征和融合特征的等級判別模型性能。結果表明,基于融合數(shù)據(jù)的建模性能優(yōu)于基于單一特征屬性(色澤或紋理)的模型。由單一外觀特征的模型性能可知,紋理特征模型精度最高,色澤特征數(shù)據(jù)的建模效果最差。利用LSSVM算法構建的特征融合評價模型對祁紅樣品的預測準確度最高,預測集判別率達到94.85%。利用特征融合數(shù)據(jù)所建模型具有更優(yōu)的預測能力,為工夫紅茶產(chǎn)品外觀品質(zhì)的快速評判提供了一種行之有效的方法。
在所有分類模型中,色澤數(shù)據(jù)模型的預測性能較差。有可能是對祁門紅茶樣本外觀的等級劃分標準更加側重于對茶葉嫩度高低的審定。紅茶樣品的持嫩度不同,其紋理差異較大。色澤特征主要與紅茶發(fā)酵程度關系緊密。在標準化的紅茶加工工藝模式下,發(fā)酵工序具有嚴格的參數(shù)控制,其品質(zhì)具有較強一致性。因此,不同等級的紅茶產(chǎn)品的色澤變化程度沒有紋理特征的差異性大,進而導致色澤數(shù)據(jù)模型的性能較紋理特征差。
從分類算法的角度看,LSSVM模型的預測效果優(yōu)于SVM模型和RF模型。LSSVM模型的優(yōu)化可以理解為等式約束,解決了基于訓練誤差平方的線性方程問題。在SVM算法的基礎上建立和開發(fā)的LSSVM方法,能夠得到一個更為簡單、有效、穩(wěn)健的模型。根據(jù)相關文獻,LSSVM分類器能夠有效提高茶葉品質(zhì)評價模型的計算速度和分類精度。此外,RF算法對于輸出數(shù)值較多的屬性可能會產(chǎn)生誤差。綜上,LSSVM分類工具能夠提供更好的解決線性和非線性問題的方案,更加有效地簡化問題的復雜性,增強模型性能。
作者簡介:
尹玲玲
馬鞍山人,在讀本科生,主要從事茶葉品質(zhì)分析與化學方向的研究。參與省部級以上科研項目3項,發(fā)表科研論文5篇。
通訊作者:
任廣鑫
博士,淮南師范學院生物工程學院食品工程系專任教師,主要從事茶葉品質(zhì)分析與茶葉質(zhì)量安全快速無損檢測技術方向的研究。近年來主持和參與省部級以上科研項目10余項,主持和參與省級、校級質(zhì)量工程項目多項。以第一作者和通訊作者發(fā)表科研論文20余篇,其中SCI收錄20余篇。
來源:中國茶葉加工
如涉及版權問題請聯(lián)系刪除